智能论文笔记

Vehicle Trajectory Prediction on Highways Using Bird Eye View Representations and Deep Learning

Rubén Izquierdo , Álvaro Quintanar , David Fernández Llorca , Iván García Daza , Noelia Hernández , Ignacio Parra , Miguel Ángel Sotelo

分类：计算机视觉 | 人工智能

2022-07-04

这项工作提出了一种新的方法，可以使用有效的鸟类视图表示和卷积神经网络在高速公路场景中预测车辆轨迹。使用基本的视觉表示，很容易将车辆位置，运动历史，道路配置和车辆相互作用轻松包含在预测模型中。 U-NET模型已被选为预测内核，以使用图像到图像回归方法生成场景的未来视觉表示。已经实施了一种方法来从生成的图形表示中提取车辆位置以实现子像素分辨率。该方法已通过预防数据集（一个板载传感器数据集）进行了培训和评估。已经评估了不同的网络配置和场景表示。这项研究发现，使用线性终端层和车辆的高斯表示，具有6个深度水平的U-NET是最佳性能配置。发现使用车道标记不会改善预测性能。平均预测误差为0.47和0.38米，对于纵向和横向坐标的最终预测误差分别为0.76和0.53米，预测轨迹长度为2.0秒。与基线方法相比，预测误差低至50％。

translated by 谷歌翻译

Towards Holistic Surgical Scene Understanding

Natalia Valderrama , Paola Ruiz Puentes , Isabela Hernández , Nicolás Ayobi , Mathilde Verlyk , Jessica Santander , Juan Caicedo , Nicolás Fernández , Pablo Arbeláez

分类：计算机视觉 | 人工智能

2022-12-08

Most benchmarks for studying surgical interventions focus on a specific challenge instead of leveraging the intrinsic complementarity among different tasks. In this work, we present a new experimental framework towards holistic surgical scene understanding. First, we introduce the Phase, Step, Instrument, and Atomic Visual Action recognition (PSI-AVA) Dataset. PSI-AVA includes annotations for both long-term (Phase and Step recognition) and short-term reasoning (Instrument detection and novel Atomic Action recognition) in robot-assisted radical prostatectomy videos. Second, we present Transformers for Action, Phase, Instrument, and steps Recognition (TAPIR) as a strong baseline for surgical scene understanding. TAPIR leverages our dataset's multi-level annotations as it benefits from the learned representation on the instrument detection task to improve its classification capacity. Our experimental results in both PSI-AVA and other publicly available databases demonstrate the adequacy of our framework to spur future research on holistic surgical scene understanding.

translated by 谷歌翻译

Gold-standard of HER2 breast cancer biopsies using supervised learning based on multiple pathologist annotations

Benjamín Hernández , Violeta Chang

分类：计算机视觉

2022-11-09

Breast cancer is one of the most common cancer in women around the world. For diagnosis, pathologists evaluate biomarkers such as HER2 protein using immunohistochemistry over tissue extracted by a biopsy. Through microscopic inspection, this assessment estimates the intensity and integrity of the membrane cells' staining and scores the sample as 0, 1+, 2+, or 3+: a subjective decision that depends on the interpretation of the pathologist. This paper presents the preliminary data analysis of the annotations of three pathologists over the same set of samples obtained using 20x magnification and including $1,252$ non-overlapping biopsy patches. We evaluate the intra- and inter-expert variability achieving substantial and moderate agreement, respectively, according to Fleiss' Kappa coefficient, as a previous stage towards a generation of a HER2 breast cancer biopsy gold-standard using supervised learning from multiple pathologist annotations.

translated by 谷歌翻译

AST-Probe: Recovering abstract syntax trees from hidden representations of pre-trained language models

José Antonio Hernández López , Martin Weyssow , Jesús Sánchez Cuadrado , Houari Sahraoui

分类：自然语言处理 | 人工智能 | 机器学习

2022-06-23

预训练的语言模型的目的是学习文本数据的上下文表示。预训练的语言模型已成为自然语言处理和代码建模的主流。使用探针，一种研究隐藏矢量空间的语言特性的技术，以前的作品表明，这些预训练的语言模型在其隐藏表示中编码简单的语言特性。但是，以前的工作都没有评估这些模型是否编码编程语言的整个语法结构。在本文中，我们证明了\ textit {句法子空间}的存在，该{语法子空间}位于预训练的语言模型的隐藏表示中，其中包含编程语言的句法信息。我们表明，可以从模型的表示形式中提取此子空间，并定义一种新颖的探测方法AST-Probe，该方法可以恢复输入代码段的整个抽象语法树（AST）。在我们的实验中，我们表明这种句法子空间存在于五个最先进的预训练的语言模型中。此外，我们强调说，模型的中间层是编码大多数AST信息的模型。最后，我们估计该句法子空间的最佳大小，并表明其尺寸大大低于模型的表示空间。这表明，预训练的语言模型使用其表示空间的一小部分来编码编程语言的句法信息。

translated by 谷歌翻译

Towards view-invariant vehicle speed detection from driving simulator images

Antonio Hernández Martínez , David Fernandez Llorca , Iván García Daza

分类：计算机视觉 | 人工智能

2022-06-01

与其他技术（例如电感回路，雷达或激光器）相比，使用摄像头进行车速测量的成本效益要高得多。但是，由于相机的固有局限性提供准确的范围估计值，因此准确的速度测量仍然是一个挑战。此外，基于经典的视觉方法对相机和道路之间的外部校准非常敏感。在这种情况下，使用数据驱动的方法是一种有趣的选择。但是，数据收集需要一个复杂且昂贵的设置，以在与高精度速度传感器同步的相机中录制视频，以生成地面真相速度值。最近已经证明，使用驾驶模拟器（例如Carla）可以用作生成大型合成数据集的强大替代方案，以实现对单个摄像机的车辆速度估算的应用。在本文中，我们在不同的虚拟位置和不同的外部参数中使用多个摄像机研究相同的问题。我们解决了复杂的3D-CNN体系结构是否能够使用单个模型隐式学习视图速度的问题，或者特定于视图的模型是否更合适。结果非常有前途，因为它们表明具有来自多个视图的数据报告的单个模型比摄像机特异性模型更好地准确性，从而铺平了迈向视图的车辆速度测量系统。

translated by 谷歌翻译

Large Dual Encoders Are Generalizable Retrievers

Jianmo Ni , Chen Qu , Jing Lu , Zhuyun Dai , Gustavo Hernández Ábrego , Ji Ma , Vincent Y. Zhao , Yi Luan , Keith B. Hall , Ming-Wei Chang

分类：自然语言处理

2021-12-15

已经表明，在一个域上训练的双编码器经常概括到其他域以获取检索任务。一种广泛的信念是，一个双编码器的瓶颈层，其中最终得分仅仅是查询向量和通道向量之间的点产品，它过于局限，使得双编码器是用于域外概括的有效检索模型。在本文中，我们通过缩放双编码器模型的大小{\ em同时保持固定的瓶颈嵌入尺寸固定的瓶颈的大小来挑战这一信念。令人惊讶的是，令人惊讶的是，缩放模型尺寸会对各种缩放提高检索任务，特别是对于域外泛化。实验结果表明，我们的双编码器，\ textbf {g} enovalizable \ textbf {t} eTrievers（gtr），优先级％colbert〜\ cite {khattab2020colbertt}和现有的稀疏和密集的索取Beir DataSet〜\ Cite {Thakur2021Beir}显着显着。最令人惊讶的是，我们的消融研究发现，GTR是非常数据的高效，因为它只需要10 \％MARCO监督数据，以实现最佳域的性能。所有GTR模型都在https://tfhub.dev/google/collections/gtr/1发布。

translated by 谷歌翻译

Quaternion-Valued Convolutional Neural Network Applied for Acute Lymphoblastic Leukemia Diagnosis

Marco Aurélio Granero , Cristhian Xavier Hernández , Marcos Eduardo Valle

分类：计算机视觉 | 机器学习 | 神经与进化计算

2021-12-13

随着深度和卷积神经网络的发展，近年来，神经网络领域已经出现了重大进展。虽然目前的许多作品地址地址的实际型号，但最近的研究表明，具有超清印的参数的神经网络可以更好地捕获，概括并表示多维数据的复杂性。本文探讨了急性淋巴细胞白血病诊断急性淋巴细胞白血病的季屈节型卷积神经网络应用。精确地，我们比较了实值和四元值值卷积神经网络的性能，从外周血涂片微观图像分类淋巴细胞。四元值卷积的卷积神经网络比其相应的实值网络实现更好或类似的性能，但仅使用其参数的34％。该结果证实，四元数代数允许从具有较少参数的彩色图像捕获和提取信息。

translated by 谷歌翻译

Firefly: Supporting Drone Localization With Visible Light Communication

Ricardo Ampudia Hernández , Talia Xu , Yanqiu Huang , Marco A. Zúñiga Zamalloa

分类：机器人

2021-12-13

无人机尚未完全信任。他们对导航的无线电和摄像机的依赖提高了安全性和隐私问题。这些系统可能会失败，导致事故，或滥用未经授权的录音。考虑到最近的法规，允许商业无人机仅在晚上运营，我们提出了一种从完全新的方法，无人机从人工照明中获得导航信息。在我们的系统中，标准灯泡调制其强度发送信标，无人机用简单的光电二极管解码此信息。该光学信息与无人机中的惯性和高度传感器组合，以提供定位，而无需无线电，GPS或相机。我们的框架是第一个提供3D无人机定位的灯光，我们用一个由四个光标记和迷你无人机组成的试验台来评估它。我们表明，我们的方法允许将无人机定位在实际位置的几个小叠内，并与最先进的定位方法相比，将本地化误差降低42％。

translated by 谷歌翻译

Quality control for more reliable integration of deep learning-based image segmentation into medical workflows

Elena Williams , Sebastian Niehaus , Janis Reinelt , Alberto Merola , Paul Glad Mihai , Ingo Roeder , Nico Scherf , Maria del C. Valdés Hernández

分类：人工智能 | 计算机视觉 | (统计)机器学习

2021-12-06

机器学习算法支撑现代诊断辅助软件，这在临床实践中证明了有价值的，特别是放射学。然而，不准确的是，主要是由于临床样本的可用性有限，用于培训这些算法，妨碍他们在临床医生中更广泛的适用性，接受和识别。我们对最先进的自动质量控制（QC）方法进行了分析，可以在这些算法中实现，以估计其输出的确定性。我们验证了识别磁共振成像数据中的白质超收缩性（WMH）的大脑图像分割任务上最有前途的方法。 WMH是在上层前期成年中常见的小血管疾病的关联，并且由于其变化的尺寸和分布模式而尤其具有挑战性。我们的研究结果表明，不确定度和骰子预测的聚集在此任务的故障检测中最有效。两种方法在0.82至0.84的情况下独立改善平均骰子。我们的工作揭示了QC方法如何有助于检测失败的分割案例，从而使自动分割更可靠，适合临床实践。

translated by 谷歌翻译

A Review on Communication Protocols for Autonomous Unmanned Aerial Vehicles for Inspection Application

Liping Shi , Néstor J. Hernández Marcano , Rune Hylsberg Jacobsen

分类：机器人

2021-11-12

通信系统是自主UAV系统设计的关键部分。它必须解决不同的考虑因素，包括UAV的效率，可靠性和移动性。此外，多UAV系统需要通信系统，以帮助在UAV的团队中提供信息共享，任务分配和协作。在本文中，我们审查了在考虑在电力线检查行业的应用程序时支持无人机团队的通信解决方案。我们提供候选无线通信技术的审查{用于支持UAV应用程序中的通信。综述了这些候选技术的性能测量和无人机相关的频道建模。提出了对构建UAV网状网络的当前技术的讨论。然后，我们分析机器人通信中间件，ROS和ROS2的结构，界面和性能。根据我们的审查，提出了通信系统中每层候选解决方案的特征和依赖性。

translated by 谷歌翻译